iT邦幫忙

2023 iThome 鐵人賽

DAY 27
0
AI & Data

進入AI的世界系列 第 27

➤D-27 核心應用☞自然語言處理-3(特徵抽取1)

  • 分享至 

  • xImage
  •  

NLP特徵抽取

語意表示的基本概念

如何利用「數據」來適切地表達語言中字句的「涵義」,即所謂的「字句語意表示」(Word Semantic Representation),也是NLP最重要的基礎,最重要的工作。
主要分兩種方式:

  1. 頻率導向(Frequency Oriented)的詞袋模式(Bag of Words, BOW)。
  2. 向量導向(Vector Oriented)的詞向量(Word Vector/Word Embedding)。

詞袋模式

一個句子(文本)的語意可用「文本內所包含各種不同關鍵詞語頻率出現的多寡來表示」

  1. 讀熱編碼(One Hot Encoding):
    利用個別單詞出現在文本中的「位置」,而以「1」、「0」來表示其位置的一種稀疏向量語句表示方式。
    利用索引「Index」來代表該詞在詞典中排列的位置序號。

  2. 詞出現頻率(Term Frequency, TF):
    BOW強調利用不同詞「出現頻率多寡」表示其文本語意,故BOW Model中必須計算各個字詞出現的頻率,因此TF指統計每個詞在不同文本中出現的頻率,出現的頻率愈高,表示這個詞是此文件重要內容與特徵。
    TF有兩缺點:
    Ⅰ. 沒有考慮比率
    Ⅱ. 忽略一般沒有特殊涵義介係詞與慣用詞

  3. TF-IDF(Term Frequency-Inverse Document Frequency):
    指一種統計方法,用以評估一個詞對於一個文本的「獨特性」與「重要程度」
    Ⅰ. 詞在文本中出現的次數:TF = 特定詞出現在一個文本的頻率 / 一個文本內所有的詞。比例愈大,詞對文本重要性愈高。
    Ⅱ. 詞在語料庫其他文件中出現的頻率:IDF = Log(所有文本數) / (包含此特定詞的文本數)。此比例愈大,表示這個詞對此文本的重要性愈低。
    Ⅲ. 績效良好,應用廣的「語意特徵表示法」:

    • 關鍵字抽取:TF-IDF值的高低來篩選文本中重要的關鍵字。
    • 搜尋引擎:網頁文本中來計算這個詞的TF-IDF,並輸出分數最高的網頁給搜尋引擎。
    • 文本分類:找出TF-IDF值最高的幾個重要關鍵詞,這些詞的集群就可以代表一個文本的分類主題。
    • 摘要抽取:找出TF-IDF分數最高的文句,就可能是重要的摘要文句。
  4. 計算詞頻率學派缺點:
    Ⅰ. 稀疏性:一個50萬字的文本,若一個詞只出現10次,則其在50萬個向量空間內,只有10個「1」,其餘49萬9990個向量值都是「0」。
    Ⅱ. 沒有序列資訊:只算「頻率次數」,完全不管「順序關係」,故因此失去許多許多文句間的資訊。
    Ⅲ. 沒有語意資訊:主要在表達文本內有「哪些詞句」,例如:「白血球打敗細菌」與「細菌打敗白血球」。


參考資料
人工智慧-概念應用與管理 林東清著


上一篇
➤D-26 核心應用☞自然語言處理-2(主要架構)
下一篇
➤D-28 核心應用☞自然語言處理-4(特徵抽取2)
系列文
進入AI的世界30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言